Sissejuhatus
Siin praktikumis jätkame ggplot2 võimaluste õppimisega. Selleks, et
tööga pihta saaks hakata, loeme sisse vajalikud paketid ja
andmestiku.
library(ggplot2)
library(tidyverse)
load("linnad.RData", verbose = T)
Loading objects:
linnad
Faktoritega töötamine
Pakett ggplot2 üritab võimalikult palju kasutada joonistamisel
informatsiooni mis on kodeeritud faktori tasemetesse. Faktor on
andmetüüp diskreetsetele muutujatele, mis säilitab lisaks väärtustele ka
info küigi võimalike väärtuste ning nende järjestuste kohta. Faktori
taseme nimede põhjal joonistatakse näiteks legend ja taseme järjestust
kasutatakse telgedel elementide järjestamiseks. Seetõttu on oluline
tunda paari nippi kuidas faktorite tasemetega töötada.
Esiteks on kasulik panna faktori tasemetele sisukad nimed. Seda saab
teha andes käsule factor ette juba sisukate nimedega
sõnevektori, kasutades argumenti labels.
a = factor(c(1, 1, 1, 2, 2, 3), labels = c("A", "B", "C"))
a
[1] A A A B B C
Levels: A B C
Faktori tasemete nimesid saab muuta kasutades käsku
fct_recode (tuleb kaasa tidyverse paketiga).
Sellega saab ka faktori tasemeid kokku võtta.
fct_recode(a, "I" = "A", "II" = "B", "III" = "C")
[1] I I I II II III
Levels: I II III
fct_recode(a, "I" = "A", "II" = "B")
[1] I I I II II C
Levels: I II C
fct_recode(a, "I" = "A", "II" = "B", "I" = "C")
[1] I I I II II I
Levels: I II
Faktori tasemete järjestust saab muuta ka käsuga
fct_relevel, kus etteantud tasemed tõstetakse jäjekorras
ette poole
a = factor(c(1, 1, 1, 2, 2, 3), labels = c("A", "B", "C"))
a
[1] A A A B B C
Levels: A B C
fct_relevel(a, "C")
[1] A A A B B C
Levels: C A B
fct_relevel(a, "C", "B", "A")
[1] A A A B B C
Levels: C B A
Kui me tahame muuta faktorite järjekorda mingi teise vektori järgi,
siis saab kasutada käsku fct_reorder.
a = factor(c(1, 1, 1, 2, 2, 3), labels = c("A", "B", "C"))
b = c(1, 5, 6, 2, -4, 10)
a
[1] A A A B B C
Levels: A B C
b
[1] 1 5 6 2 -4 10
fct_reorder(a, b)
[1] A A A B B C
Levels: B A C
fct_reorder(a, b, .desc = T)
[1] A A A B B C
Levels: C A B
fct_reorder(a, b, .fun = max)
[1] A A A B B C
Levels: B A C
Seega kui me tahame mugandada pilti on tihtipeale kasulikum enne
mugandada andmeid ja siis nendega pilt joonistada.
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = income_class)) +
geom_point()

linnad %>%
mutate(income_class = fct_recode(income_class, "High" = "Very High", "Low" = "Very Low", "Low" = "Medium")) %>%
ggplot(aes(x = per_capita_inc, y = unemployment_rate, colour = income_class)) +
geom_point()

ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = Poverty_factor)) +
geom_point()

linnad %>%
mutate(Poverty_factor = fct_relevel(Poverty_factor, "Low", "Medium", "High")) %>%
ggplot(aes(x = per_capita_inc, y = unemployment_rate, colour = Poverty_factor)) +
geom_point()

ggplot(linnad, aes(x = County, y = pop_estimate)) +
geom_bar(stat = "identity")

linnad %>%
mutate(County = fct_reorder(County, pop_estimate)) %>%
ggplot(aes(x = County, y = pop_estimate)) +
geom_bar(stat = "identity")

Ülesanded
- Joonistage seos bachelor ja high_scl vahel ning
näidake värviga tunnust income_class . Võta koku klassid “Very
Low” ja “Low” ning uuda värvide järjekord nii, et see algaks väga
kõrgest ja lõppeks madalaga.
linnad %>%
mutate(income_class = fct_recode(income_class, "Low" = "Very Low")) %>%
mutate(income_class = fct_relevel(income_class, "Low", "Medium", "High", "Very High" )) %>%
ggplot(aes(x = bachelor , y = high_scl , colour = income_class )) +
geom_point()

Graafikute annoteerimine ja mugandamine
Graafikute annoteerimine
Telgede ja graafiku annoteerimise viise me oleme juba töö käigus
näinud. Paljud asjad saab ära lahendada erinevate
skaleerimisfunktsioonide parameetritega. Siiski on paljudele neis olemas
ka mugavamad vasted eraldi funktsioonidega mis hoiavad trükkimist kokku.
Neist olulisemad on
ggtitle() - määrame graafiku pealkirja
xlab(), ylab() - telgede
pealkirjad
xlim(), ylim() - telgede
väärtusvahemiku määramine
Graafikute stiil
Vahest on vaja muuta ggplot2 graafikute üleüldist stiili
või mõne elemendi väljanägemist. Näiteks on standardne
ggplot2 graafikute taust hall, mis ei ole alati parim
lahendus. Seda on lihtne muuta käsuga theme_bw mis teeb
tausta valgeks ja muudab ka portsu muude graafiku elementide värve ja
kuju.
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = birth_class)) +
geom_point() +
theme_bw()

Neid funktsioone on veel, tasub vaadata mida RStudio pakub, kui
kirjutada algus theme_ . Veel rohkem erinevaid teemasid on
olemas paketis ggthemes (https://yutannihilation.github.io/allYourFigureAreBelongToUs/ggthemes/).
library(ggthemes)
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = birth_class)) +
geom_point() +
theme_wsj()

Täpsemalt saab muuta konkreetseid elemente käsuga theme.
Siin on terve ports parameetreid mis töötavad hierarhiliselt. Olulisemad
on toodud järgmisel joonisel.
Nendele saabväärtuseks anda käske element_text,
element_line ja element_rect vastavalt
parameetri tüübile. Käskude element_* parameetrid vastavad
suhteliselt täpselt sarnaste elementide grid paketis kasutatavatele
parameetritele. Oluline funktsioon on ka element_blank mis vastava
elemendi lihtsalt ära kustutab.
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = birth_class)) +
geom_point() +
theme(panel.background = element_rect(fill = "pink"), panel.grid.minor = element_blank())

Väga oluline parameeter käsus theme on ka
legend.position. Kui selle väärtuseks on
"none" kustutatakse legend ära. Väärtused
"left", "right", "top" ja
"bottom" käituvad nagu võiks oodata . Andes ette kahe
elemendilise vektori paigutab ta legendi graafiku ala sees vastavalt
antud koordinaatidele, paralleelselt on hea kasutada ka
legend.justification argumenti, mis võimaldab legendi
paigutust täpsemalt kontollida.
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = birth_class)) +
geom_point() +
theme(legend.position = "none")
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = birth_class)) +
geom_point() +
theme(legend.position = "bottom")
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = birth_class)) +
geom_point() +
theme(legend.position = c(1,1), legend.justification = c(1, 1))
Ülesanded
- Proovi saavutada umbes järgmine pilt.

ggplot(linnad, aes(x = bachelor, y = high_scl, colour = income_class)) +
geom_point() +
scale_color_brewer(type="div", palette=2) +
ggtitle("High School and Higher Education") +
theme(
panel.background = element_rect(fill = "gold"),
axis.text.x = element_text(angle=45),
legend.position = c(1,0),
legend.justification = c(1, 0),
legend.background = element_rect(color = "black"),
legend.key = element_rect(fill = "grey95")
)
Graafikute salvestamine
Grafikuid saab salvestada käsuga ggsave(), Kui ette anda
vaid faili nimi, siis salvestab see käsk viimase graafiku, mis sai
joonistatud, kusjuures suuruse võtab ta akna järgi ning failitüübi
määrab faili nime laiendi järgi.
Parameetreid width ja height kasutades on
võimalik ära määrata ka täpselt joonise mõõdud (tollides).
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = Poverty_factor)) +
geom_point() +
theme(legend.position = c(1,1), legend.justification = c(1, 1))
ggsave("plot1.png")
ggsave("plot1.pdf")
ggsave("plot1_wide.png", width = 10, height = 5)
Soovitav on salvestada jooniseid .pdf formaadis. Nii tehakse
vektorgraafika ja pilt on alati hea kvaliteediga. Kui soovida
(Windowsil), et kas raster kujul salvestatud pildid näiteks .png failid
head välja näeksid tasub muuta vaikimisi graafika mootorit RStudios
järgnevalt.

Erinevate graafikute kokku panemine
Graafikute tahkudeks jagamine toimib väga hästi, kui me tahame ühte
tüüpi graafikut jagada mitmeks. Kuid kui me tahame erinevat tüüpi
graafikuid erinevatel muutujatel samal pildil kõrvuti näidata, siis sama
lähenemine ei tööta. Siin tulevad appi lisapaketid. Näiteks
patchwork on üks mis võimaldab ggplot2
graafikuid kokku panna.
Enne, kui läheme patchwork-i enda juurde vaatame ühte
kasulikku nippi. Nimelt on võimalik ggplot graafik muutujana salvetada.
Joonistatakse see alles siis kui muutuja väärtus on vaja välja
trükkida.
p = ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = Poverty_factor)) +
geom_point()
p
p + theme_bw()
Loeme sisse paketi patchwork ja defineerime kolm graafikut mida
kombineerima hakata.
install.packages("patchwork")
library(patchwork)
p1 = ggplot(linnad, aes(x = per_capita_inc)) +
geom_histogram() +
ggtitle("Plot 1")
p2 = ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = Poverty_factor)) +
geom_point() +
ggtitle("Plot 2")
p3 = ggplot(linnad, aes(x = State, y = unemployment_rate, fill = State)) +
geom_boxplot() +
ggtitle("Plot 3")
p1
p2
p3
Patchworkis tehakse ka graafikutega “tehteid”. Selleks, et graafikuid
kõrvuti panna on tehe |.
p1 | p2
Üksteise alla saab panna graafikuid tehtega / .
p1/p2

Tehteid saab ka kombineerida, siis tuleb tähelepanu juhtida tehete
järjekorrale
p1 | p2 / p3

(p1 | p2) / p3

Selleks, et piltide paigutust paremini kontrollida on funktsioon
plot_layout, millega saab joonise erinevaid aspekte muuta.
Näiteks heights parameeter võimaldab muuta piltide
suhtelisi kõrguseid.
p1 / p2 / p3 + plot_layout(heights = c(2, 2, 4))
install.packages("patchwork")
Warning in install.packages :
package ‘patchwork’ is in use and will not be installed

Argument widths töötab sama moodi.
(p1 | p2 | p3) + plot_layout(widths = c(2, 2, 4))

Eelmine pilt jäi kole sest vastavate laiustega on graafikute andmeid
näitavad paneelid. Kuna kahel graafikul on aga legend, siis nende laiust
arvesse ei võeta. Küll aga on võimalik argumendiga guides kõikidelt
piltidelt legendid kokku koguda.
(p1 | p2 | p3) + plot_layout(widths = c(2, 2, 4), guides = "collect")

Paketis patchwork on veel palju võimalusi ja tasub uurida paketi
kodulehte https://github.com/thomasp85/patchwork ja seal viidatud
õpetusi.
Ülesanded
- Proovige tekitada järgnev pilt

(p1 / ( p2 | p3)) + plot_layout(widths = c(2, 2, 4), guides = "collect")

Kodune ülesanne
Proovi joonistada võimalikult sarnane graafik järgnevaga. Siin on
rakendatud terve hulk nippe, mida sai selles ja eelmises praksis õpitud.
Punktid kujunevad selle põhjal kui palju neist nippidest on rakendatud.
Kui õiget nippi on rakendatud, kuid tulemus pole täpselt identne, siis
punkte maha ei võta. Näiteks kui värv pole täpselt õige aga õigel
graafiku osal on seda siiski muudetud.

linnad
library(ggplot2)
library(dplyr)
library(patchwork)
fill_cols <- c(
"Low" = "#f4a142",
"Medium" = "gray90",
"High" = "#7b67c8"
)
outline_cols <- c(
"Low" = "#e65000",
"Medium" = "#e65000",
"High" = "#e65000"
)
data <- linnad %>%
mutate(
income_class = fct_recode(income_class, "High" = "Very High", "Low" = "Very Low"),
Poverty_factor = fct_relevel(Poverty_factor, "Low", "Medium", "High"),
Birth_factor = fct_relevel(Birth_factor, "Low", "Medium", "High")
)
p1 <- ggplot(data, aes(x = Birth_factor, y = over65, fill = Birth_factor)) +
geom_boxplot(fill = NA, color="gray5") +
geom_violin(
aes(color = Birth_factor),
alpha = 0.4, linewidth = 0,
draw_quantiles = NULL
) +
scale_fill_manual(values = fill_cols) +
scale_color_manual(values = outline_cols) +
geom_hline(yintercept = 12.5, linetype = "dotted") +
facet_wrap(~ State, ncol = 3) +
theme_bw(base_size = 13) +
theme(
strip.background = element_rect(fill = "#f2b0c4", color = "black"),
strip.text = element_text(face = "bold"),
panel.grid.major.x = element_blank(),
panel.grid.major.y = element_blank(),
panel.grid.minor = element_blank(),
panel.background = element_rect(fill = "white", color = NA),
legend.position = c(1, -0.1),
legend.justification = c(1, 0),
legend.key = element_rect( color="red"),
)
p2 <- ggplot(linnad, aes(x = deaths, y = births)) +
geom_point(color = "white", size = 2,) +
geom_smooth(color = "red", linewidth = 1) +
theme_void() +
theme(
panel.background = element_rect(fill = "black", color = "black"),
panel.grid.major = element_line(color = "white", linetype = "dashed"),
panel.grid.minor = element_line(color = "white", linetype = "dashed"),
axis.text = element_text(color = "black"),
axis.title = element_text(color = "black"),
plot.background = element_rect(fill = "white", color = "white"),
axis.title.y = element_text(angle = 90)
) +
scale_x_continuous(name = "Higher education percentage", breaks = c(0, 0.5, 1, 1.5, 2))+
labs(x = "deaths", y = "births")
p1 / p2 + plot_layout(heights = c(3, 1))

ggplot2-ga graafikute joonistamise harjutamine
Selle ja eelmise praktikumi põhjal peaks olulisemad oskused ggplot2
kasutamiseks olemas olema. Nüüd proovime neid rakendada, kasutades ka
teadmisi teisest loengust, kus sai tutvustatud graafikute valimise
põhimõtteid täpsemalt.
Loeme sisse kõigepealt andmestiku, mis kirjeldab siis 2000 inimese
kehamassi indekseid ja juhuslikul päeval tehtud sammude arvu. Iga
inimese kohta on ka antud sugu, vanus ja vanusegrupp. Loeme andmestiku
sisse.
load("bmi.RData", verbose = T)
bmi
Iga ülesande puhul tasub proovida erinevaid variante ja mõelda
milline töötab antud olukorras paremini ja miks. Meeldetuletuseks, siin
on olulisemad käsud mida vaja võib minna
geom_point
geom_histogram
geom_bar
geom_boxplot
geom_density
geom_violin
geom_smooth
facet_grid
Ülesanded
1 Milline tehtud sammude jaotus? Millist geomeetrilist esitust
võib selle uurimiseks kasutada?
2 Milline on tehtud sammude jaotus sugude kaupa? Vihjed:
3 Kumma soo esindajad teevad mediaanis vähem sammusid?
4 Tee läbi see sama võrdlus vanusegruppide kaupa. Kas järeldus on
sama?
5 Vaata vanusegruppide arvukust sugude kaupa. Kas jaotus on
sarnane või erinev?
6 Kas vanuse ja tehtud sammude vahel on seos? Kas seos tundub
lineaarne?
7 Milline on seos kehamassi indeksi ja sammude vahel? Kas seos on
lineaarne ja või on tegu millegi keerukamaga?
#1
ggplot(bmi, aes(x = Steps)) +
geom_histogram()

ggplot(bmi, aes(x = Steps)) +
geom_histogram(bins = 100)

ggplot(bmi, aes(x = Steps)) +
geom_density()

ggplot(bmi, aes(x = Steps)) +
geom_boxplot()

#2
ggplot(bmi, aes(x = Steps, fill=Gender)) +
geom_histogram(position = "identity", alpha=0.3)

ggplot(bmi, aes(x = Steps, fill=Gender, color=Gender)) +
geom_histogram(position = "identity", alpha=0.3)

ggplot(bmi, aes(x = Steps, fill=Gender, color=Gender)) +
geom_density(position = "identity", alpha=0.3)

#3
ggplot(bmi, aes(x = Steps, y=Gender)) +
geom_boxplot()

#4
ggplot(bmi, aes(x = Steps, y=AgeGroup, fill=Gender)) +
geom_boxplot()

#5
ggplot(bmi, aes(x = Gender, fill=AgeGroup)) +
geom_bar()

ggplot(bmi, aes(x = Gender, fill=AgeGroup)) +
geom_bar(position="dodge")

ggplot(bmi, aes(x = Gender, fill=AgeGroup)) +
geom_bar(position="fill")

#6
ggplot(bmi, aes(x = Age, y=Steps)) +
geom_point() +
geom_smooth()

ggplot(bmi, aes(x = Age, y=Steps)) +
geom_point() +
geom_smooth(method = "lm")

#7
ggplot(bmi, aes(x = BMI, y=Steps)) +
geom_point() +
geom_smooth()

ggplot(bmi, aes(y = BMI, x=Steps)) +
geom_point() +
geom_smooth(method = "lm")

Kodune ülesanne
Failis ylevaatused.RData on andmestik kõigi Eestis toime
pandud sõidukite tehniliste ülevaatuste kohta. Tunnuste kohta lisainfot
palju pole, kuid nimed peaks suht selged olema. Andmestik pärineb eesti
avaandmete portaalist: https://avaandmed.eesti.ee/datasets/maismaasoidukite-tehnoulevaatused-eestis
Ülesandeks on selle andmestiku põhjal joonistada välja graafik mis
toob välja mingi huvitava seose. Andmestik on suur ja graafik ei pea
kajastama tervet andmestikku, vaid võib keskenduda mingile andmete
alamhulgale.
Sellel graafikul võib olla mitu paneeli, kuid peab olema siiski
üks fail, mis välja trükkides mahuks ühele lehele ja
oleks loetav. Kuna andmed on keerukad võib pildi salvestada suuremana,
kui Rstudio graafiku aknasse mahub (kasutades käsku ggsave
ja argumente height ja width), et kõigel
vajalikul piisavalt ruumi oleks.
Esitada tuleb graafikut genereeriv kood, põhjendus
miks just antud tüüpi graafik(ud) on nende andmete näitamiseks hea ja ka
mõne lauseline järeldus, mille te pildilt olete välja
lugenud.
Graafik peab vastama järgnevatele tingimustele.
Kasutatud on vähemalt 5 erinevat tunnust
Kasutatud on vähemalt 2 erinevat geom_* funktsiooni
On modifitseeritud graafiku elementide väljanägemist ning need
muudatused on asjakohased
On valitud andmetele sobiv visualiseerimise meetod
Graafik ei vaja lisaselgitusi ning on kergesti loetav (kõik
tekstid suurte algustähtedega, grammatiliselt korrektsed, piisavalt
kirjeldavad).
Tekstilised järeldused ja graafik lähevad kokku.
load("ylevaatused.RData", verbose = T)
Loading objects:
ylevaatused
ylevaatused
names(ylevaatused) # colnames(ylevaatused)
[1] "TEHNOYLEVAATUSPUNKT" "PUNKTI_KOOD" "TOOTAJA" "YV_KUUPAEV" "YLEVAATUSLIIK" "YLEVAATUSOTSUS" "RIKKED"
[8] "SOIDUK_ID" "ESMANE_REG_AASTA" "MARK" "MUDEL" "KATEGOORIA" "KERETYYP"
unique(ylevaatused$YLEVAATUSOTSUS)
[1] "KORRAS" "KORDUVALE" "VASTAB_NOUETELE" "SOITMISEKS_KOLBMATU" "KATKESTATUD" "EI_VASTA_NOUETELE"
str(ylevaatused)
Classes ‘spec_tbl_df’, ‘tbl_df’, ‘tbl’ and 'data.frame': 720032 obs. of 13 variables:
$ TEHNOYLEVAATUSPUNKT: chr "Narva Tehno OÜ (Lääne)" "A-Ülevaatus OÜ (Raua)" "Rehvikeskus OÜ" "PRO Tehno OÜ (Sauga)" ...
$ PUNKTI_KOOD : chr "NH" "DR" "LE" "FK" ...
$ TOOTAJA : chr "440" "631" "0807" "579" ...
$ YV_KUUPAEV : chr "2023-12" "2023-07" "2023-06" "2023-10" ...
$ YLEVAATUSLIIK : chr "KORRALINE" "KORRALINE" "KORRALINE" "KORRALINE" ...
$ YLEVAATUSOTSUS : chr "KORRAS" "KORRAS" "KORRAS" "KORRAS" ...
$ RIKKED : chr NA NA NA NA ...
$ SOIDUK_ID : num 1 2 3 4 5 6 7 8 9 10 ...
$ ESMANE_REG_AASTA : num 2003 2011 1996 2015 2018 ...
$ MARK : chr "FORD" "PANAV" "HONDA" "KRONE" ...
$ MUDEL : chr "GALAXY" "NS136" "VT 700C" "SDP 27ELB4-CS" ...
$ KATEGOORIA : chr "M1" "O4" "L3e" "O4" ...
$ KERETYYP : chr "MAHTUNIVERSAAL" "KALLUR" "MOOTORRATAS" "MADEL" ...
- attr(*, "spec")=List of 3
..$ cols :List of 13
.. ..$ TEHNOYLEVAATUSPUNKT: list()
.. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
.. ..$ PUNKTI_KOOD : list()
.. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
.. ..$ TOOTAJA : list()
.. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
.. ..$ YV_KUUPAEV : list()
.. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
.. ..$ YLEVAATUSLIIK : list()
.. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
.. ..$ YLEVAATUSOTSUS : list()
.. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
.. ..$ RIKKED : list()
.. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
.. ..$ SOIDUK_ID : list()
.. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
.. ..$ ESMANE_REG_AASTA : list()
.. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
.. ..$ MARK : list()
.. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
.. ..$ MUDEL : list()
.. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
.. ..$ KATEGOORIA : list()
.. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
.. ..$ KERETYYP : list()
.. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
..$ default: list()
.. ..- attr(*, "class")= chr [1:2] "collector_guess" "collector"
..$ delim : chr ","
..- attr(*, "class")= chr "col_spec"
- attr(*, "problems")=<externalptr>
library(tidyverse)
library(patchwork)
ylev <- ylevaatused %>%
mutate(
RIKKED = ifelse(is.na(RIKKED), "", RIKKED),
VIGADE_ARV = ifelse(RIKKED == "", 0, str_count(RIKKED, ";") + 1),
) %>%
filter(str_starts(KATEGOORIA, "M") & !is.na(KATEGOORIA)) %>%
mutate(KERETYYP_GRUPP = case_when(
KERETYYP %in% c("MAHTUNIVERSAAL", "UNIVERSAAL", "LUUKPÄRA", "SEDAAN",
"KUPEE", "LIMUSIIN", "KOMBI") ~ "Sõiduauto",
KERETYYP %in% c("LAHTINE", "PIKAP",
"SIHTOTSTARBELINE", "ERIOTSTARBELINE SÕIDUK") ~ "Kaubik / tööauto",
KERETYYP %in% c("MITMEOTSTARBELINE SÕIDUK") ~ "Mitmeotstarbeline",
KERETYYP %in% c("BUSS", "LIIGENDBUSS", "KORRUSBUSS", "TROLL") ~ "Buss",
KERETYYP %in% c("KIIRABI", "MATUSEAUTO", "ELAMU") ~ "Erisõiduk",
TRUE ~ NA
))
#sample_n(20000)
ylev
#unique(ylev$YLEVAATUSOTSUS)
unique(ylev$KERETYYP)
[1] "MAHTUNIVERSAAL" "UNIVERSAAL" "LAHTINE" "LUUKPÄRA" "SEDAAN"
[6] "ELAMU" "MITMEOTSTARBELINE SÕIDUK" "BUSS" "SIHTOTSTARBELINE" "KUPEE"
[11] "LIIGENDBUSS" "KIIRABI" "PIKAP" "ERIOTSTARBELINE SÕIDUK" "LIMUSIIN"
[16] "MATUSEAUTO" NA "KORRUSBUSS" "KOMBI" "TROLL"
# Vanus vs mitte_positiivne ülevaatusotsus (M1 ja m1g kategooria (sõiduuatod ja bussid))
library(scales)
palett = hue_pal()(8)
kategooria_värvid = c(
"M1" = palett[2],
"M1G" = palett[4],
"M2" = palett[6],
"M3" = palett[8]
)
m1_m1g <- ylev %>%
filter(!is.na(ESMANE_REG_AASTA), !is.na(YLEVAATUSOTSUS)) %>%
filter(YLEVAATUSOTSUS %in% c("EI_VASTA_NOUETELE", "SOITMISEKS_KOLBMATU")) %>%
filter(KATEGOORIA %in% c("M1", "M1G")) %>%
ggplot(aes(x = ESMANE_REG_AASTA, color = KATEGOORIA, fill = KATEGOORIA)) +
geom_density(alpha = 0.2) +
labs(
title = "Sõiduautod",
x = "Esmane registreerimse aasta",
y = "Tihedus",
fill = "Kategooria",
color = "Kategooria"
) +
theme_minimal(base_size = 12) +
theme(plot.title = element_text(face = "plain", size = 12)) +
scale_color_manual(values = kategooria_värvid) +
scale_fill_manual(values = kategooria_värvid)
m2_m3 <- ylev %>%
filter(!is.na(ESMANE_REG_AASTA), !is.na(YLEVAATUSOTSUS)) %>%
filter(YLEVAATUSOTSUS %in% c("EI_VASTA_NOUETELE", "SOITMISEKS_KOLBMATU")) %>%
filter(KATEGOORIA %in% c("M2", "M3")) %>%
ggplot(aes(x = ESMANE_REG_AASTA, color = KATEGOORIA, fill = KATEGOORIA)) +
geom_density(alpha = 0.2) +
labs(
title = "Bussid",
x = "Esmane registreerimse aasta",
y = "Tihedus",
fill = "Kategooria",
color = "Kategooria"
) +
theme_minimal(base_size = 12) +
theme(plot.title = element_text(face = "plain", size = 12)) +
scale_color_manual(values = kategooria_värvid) +
scale_fill_manual(values = kategooria_värvid)
graafik1 <- m1_m1g / m2_m3 +
plot_layout(guides = "collect") +
plot_annotation(
title = "Negatiivne ülevaatusotsus",
subtitle = "M-kategooria sõidukid",
#caption = "Allikas: ?? trust me bro",
theme = theme(
plot.title = element_text(face = "bold", size = 16),
plot.subtitle = element_text(size = 12)
)
)
#graafik1
# Auto kategooria ja vigade arv
graafik2 <- ylev %>%
filter(!is.na(KATEGOORIA), !is.na(KERETYYP_GRUPP)) %>%
group_by(KATEGOORIA) %>%
ggplot(aes(y = KATEGOORIA, x = VIGADE_ARV, color=KERETYYP_GRUPP)) +
geom_point(position = "jitter") +
labs(
title = "Vigade arv keretüübi kohta",
subtitle = "M-kategooria sõidukid",
y = "Keretüüp",
x = "Vigade Arv",
color = "Keretüüp"
) +
theme_minimal(base_size = 12) +
theme(
plot.title = element_text(face = "bold", size = 16),
plot.subtitle = element_text(size = 12)
)
#graafik2
graafik1 / graafik2 +
plot_layout(guides = "keep")

Ma tahtsin uurida järgnevat:
Mida vanem auto seda suurema tõenäosusega kukub ülevaatusel auto
läbi.
Sõiduautodel on tavaliselt rohkem vigu kui bussidel, kuna autosid
on rohkem teedel kui busse.
Järeldused:
sõiduautod: Mida vanem auto, seda suurem on tõenäosus ülevaatusel
läbi kukkuda.
Bussid: Vanus ei selgita otseslet läbikukkumist. Busside puhul mõjutab
tulemust pigem asutusintensiivsus (suurem aastane läbisõit), mistõttu
võivad ka uuemad bussid sagedamini läbi kukkuda.
Sõiduautodel on rohkem äärmuslikke vigade väärtusi, kuna
sõiduautosid on valimis tunduvalt rohkem kui busse. Valimi suurus
tekitab loomulikult suurema hajuvuse.
---
title: "Praktikum 8 - ggplot2 jätk"
output: html_notebook
---

## Sissejuhatus

Siin praktikumis jätkame ggplot2 võimaluste õppimisega. Selleks, et tööga pihta saaks hakata, loeme sisse vajalikud paketid ja andmestiku.

```{r}
library(ggplot2)
library(tidyverse)

load("linnad.RData", verbose = T)
```

## Faktoritega töötamine

Pakett ggplot2 üritab võimalikult palju kasutada joonistamisel informatsiooni mis on kodeeritud faktori tasemetesse. Faktor on andmetüüp diskreetsetele muutujatele, mis säilitab lisaks väärtustele ka info küigi võimalike väärtuste ning nende järjestuste kohta. Faktori taseme nimede põhjal joonistatakse näiteks legend ja taseme järjestust kasutatakse telgedel elementide järjestamiseks. Seetõttu on oluline tunda paari nippi kuidas faktorite tasemetega töötada. 

Esiteks on kasulik panna faktori tasemetele sisukad nimed. Seda saab teha andes käsule `factor` ette juba sisukate nimedega sõnevektori, kasutades argumenti `labels`.

```{r}
a = factor(c(1, 1, 1, 2, 2, 3), labels = c("A", "B", "C"))
a
```

Faktori tasemete nimesid saab muuta kasutades käsku `fct_recode` (tuleb kaasa `tidyverse` paketiga). Sellega saab ka faktori tasemeid kokku võtta.

```{r}
fct_recode(a, "I" = "A", "II" = "B", "III" = "C")

fct_recode(a, "I" = "A", "II" = "B")

fct_recode(a, "I" = "A", "II" = "B", "I" = "C")
```

Faktori tasemete järjestust saab muuta ka käsuga `fct_relevel`, kus etteantud tasemed tõstetakse jäjekorras ette poole

```{r}
a = factor(c(1, 1, 1, 2, 2, 3), labels = c("A", "B", "C"))
a

fct_relevel(a, "C")
fct_relevel(a, "C", "B", "A")
```

Kui me tahame muuta faktorite järjekorda mingi teise vektori järgi, siis saab kasutada käsku `fct_reorder`.

```{r}
a = factor(c(1, 1, 1, 2, 2, 3), labels = c("A", "B", "C"))
b = c(1, 5, 6, 2, -4, 10)
a
b

fct_reorder(a, b)
fct_reorder(a, b, .desc = T)
fct_reorder(a, b, .fun = max)

```

Seega kui me tahame mugandada pilti on tihtipeale kasulikum enne mugandada andmeid ja siis nendega pilt joonistada.

```{r}
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = income_class)) +
  geom_point() 

linnad %>% 
  mutate(income_class = fct_recode(income_class, "High" = "Very High", "Low" = "Very Low", "Low" = "Medium")) %>% 
  ggplot(aes(x = per_capita_inc, y = unemployment_rate, colour = income_class)) +
    geom_point() 
```

```{r}
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = Poverty_factor)) +
  geom_point() 

linnad %>% 
  mutate(Poverty_factor = fct_relevel(Poverty_factor, "Low", "Medium", "High")) %>% 
  ggplot(aes(x = per_capita_inc, y = unemployment_rate, colour = Poverty_factor)) +
  geom_point() 
```

```{r}
ggplot(linnad, aes(x = County, y = pop_estimate)) +
  geom_bar(stat = "identity") 

linnad %>% 
  mutate(County = fct_reorder(County, pop_estimate)) %>% 
  ggplot(aes(x = County, y = pop_estimate)) +
    geom_bar(stat = "identity") 
```

#### Ülesanded

-   Joonistage seos *bachelor* ja *high_scl* vahel ning näidake värviga tunnust *income_class* . Võta koku klassid "Very Low" ja "Low" ning uuda värvide järjekord nii, et see algaks väga kõrgest ja lõppeks madalaga.

```{r}

linnad %>% 
  mutate(income_class = fct_recode(income_class, "Low" = "Very Low")) %>%
  mutate(income_class = fct_relevel(income_class, "Low", "Medium", "High", "Very High" )) %>% 
  ggplot(aes(x = bachelor , y = high_scl , colour = income_class )) +
  geom_point() 
```

## Graafikute annoteerimine ja mugandamine

### Graafikute annoteerimine

Telgede ja graafiku annoteerimise viise me oleme juba töö käigus näinud. Paljud asjad saab ära lahendada erinevate skaleerimisfunktsioonide parameetritega. Siiski on paljudele neis olemas ka mugavamad vasted eraldi funktsioonidega mis hoiavad trükkimist kokku. Neist olulisemad on 

-   `ggtitle()` - määrame graafiku pealkirja

-   `xlab()`, `ylab()` - telgede pealkirjad

-   `xlim()`, `ylim()` - telgede väärtusvahemiku määramine

### Graafikute stiil

Vahest on vaja muuta `ggplot2` graafikute üleüldist stiili või mõne elemendi väljanägemist. Näiteks on standardne `ggplot2` graafikute taust hall, mis ei ole alati parim lahendus. Seda on lihtne muuta käsuga `theme_bw` mis teeb tausta valgeks ja muudab ka portsu muude graafiku elementide värve ja kuju.

```{r}
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = birth_class)) +
  geom_point() +
  theme_bw() 
```

Neid funktsioone on veel, tasub vaadata mida RStudio pakub, kui kirjutada algus `theme_` . Veel rohkem erinevaid teemasid on olemas paketis `ggthemes` (<https://yutannihilation.github.io/allYourFigureAreBelongToUs/ggthemes/>).

```{r}
library(ggthemes)
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = birth_class)) +
  geom_point() +
  theme_wsj() 
```

Täpsemalt saab muuta konkreetseid elemente käsuga `theme`. Siin on terve ports parameetreid mis töötavad hierarhiliselt. Olulisemad on toodud järgmisel joonisel.

![![](images/clipboard-979337503.png)](images/Screenshot%202021-02-22%20at%2010.54.18.png)

Nendele saabväärtuseks anda käske `element_text`, `element_line` ja `element_rect` vastavalt parameetri tüübile. Käskude `element_*` parameetrid vastavad suhteliselt täpselt sarnaste elementide grid paketis kasutatavatele parameetritele. Oluline funktsioon on ka element_blank mis vastava elemendi lihtsalt ära kustutab.

```{r}
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = birth_class)) +
  geom_point() +
  theme(panel.background = element_rect(fill = "pink"), panel.grid.minor = element_blank())
```

Väga oluline parameeter käsus theme on ka `legend.position`. Kui selle väärtuseks on `"none"` kustutatakse legend ära. Väärtused `"left"`, `"right"`, `"top"` ja `"bottom"` käituvad nagu võiks oodata . Andes ette kahe elemendilise vektori paigutab ta legendi graafiku ala sees vastavalt antud koordinaatidele, paralleelselt on hea kasutada ka `legend.justification` argumenti, mis võimaldab legendi paigutust täpsemalt kontollida.

```{r}
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = birth_class)) +
  geom_point() +
  theme(legend.position = "none")
```

```{r}
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = birth_class)) +
  geom_point() +
  theme(legend.position = "bottom")
```

```{r}
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = birth_class)) +
  geom_point() +
  theme(legend.position = c(1,1), legend.justification = c(1, 1))
```

#### Ülesanded

-   Proovi saavutada umbes järgmine pilt.

![](images/Screenshot%202021-02-28%20at%2016.31.54.png)

```{r}
ggplot(linnad, aes(x = bachelor, y = high_scl, colour = income_class)) +
  geom_point() +
  scale_color_brewer(type="div", palette=2) +
  ggtitle("High School and Higher Education") +
  theme(
    panel.background = element_rect(fill = "gold"),
    axis.text.x = element_text(angle=45),
    legend.position = c(1,0), 
    legend.justification = c(1, 0),
    legend.background = element_rect(color = "black"),
    legend.key = element_rect(fill = "grey95")
  )
```

## Graafikute salvestamine

Grafikuid saab salvestada käsuga `ggsave()`, Kui ette anda vaid faili nimi, siis salvestab see käsk viimase graafiku, mis sai joonistatud, kusjuures suuruse võtab ta akna järgi ning failitüübi määrab faili nime laiendi järgi.

Parameetreid `width` ja `height` kasutades on võimalik ära määrata ka täpselt joonise mõõdud (tollides).

```{r}
ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = Poverty_factor)) +
  geom_point() +
  theme(legend.position = c(1,1), legend.justification = c(1, 1))

ggsave("plot1.png")
ggsave("plot1.pdf")
ggsave("plot1_wide.png", width = 10, height = 5)
```

Soovitav on salvestada jooniseid .pdf formaadis. Nii tehakse vektorgraafika ja pilt on alati hea kvaliteediga. Kui soovida (Windowsil), et kas raster kujul salvestatud pildid näiteks .png failid head välja näeksid tasub muuta vaikimisi graafika mootorit RStudios järgnevalt.

![](images/image.png)

## Erinevate graafikute kokku panemine

Graafikute tahkudeks jagamine toimib väga hästi, kui me tahame ühte tüüpi graafikut jagada mitmeks. Kuid kui me tahame erinevat tüüpi graafikuid erinevatel muutujatel samal pildil kõrvuti näidata, siis sama lähenemine ei tööta. Siin tulevad appi lisapaketid. Näiteks `patchwork` on üks mis võimaldab `ggplot2` graafikuid kokku panna.

Enne, kui läheme `patchwork`-i enda juurde vaatame ühte kasulikku nippi. Nimelt on võimalik ggplot graafik muutujana salvetada. Joonistatakse see alles siis kui muutuja väärtus on vaja välja trükkida.

```{r}
p = ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = Poverty_factor)) +
  geom_point()

p
p + theme_bw()
```

Loeme sisse paketi patchwork ja defineerime kolm graafikut mida kombineerima hakata.

```{r}
install.packages("patchwork")
```

```{r}
library(patchwork)

p1 = ggplot(linnad, aes(x = per_capita_inc)) +
  geom_histogram() +
  ggtitle("Plot 1")
p2 = ggplot(linnad, aes(x = per_capita_inc, y = unemployment_rate, colour = Poverty_factor)) +
  geom_point() +
  ggtitle("Plot 2")
p3 = ggplot(linnad, aes(x = State, y = unemployment_rate, fill = State)) +
  geom_boxplot() +
  ggtitle("Plot 3")


p1
p2
p3
```

Patchworkis tehakse ka graafikutega "tehteid". Selleks, et graafikuid kõrvuti panna on tehe `|`.

```{r}
p1 | p2  
```

Üksteise alla saab panna graafikuid tehtega `/` .

```{r}
p1/p2
```

Tehteid saab ka kombineerida, siis tuleb tähelepanu juhtida tehete järjekorrale

```{r}
p1 | p2 / p3
```

```{r}
(p1 | p2) / p3
```

Selleks, et piltide paigutust paremini kontrollida on funktsioon `plot_layout`, millega saab joonise erinevaid aspekte muuta. Näiteks `heights` parameeter võimaldab muuta piltide suhtelisi kõrguseid.

```{r}
p1 / p2 / p3 + plot_layout(heights = c(2, 2, 4))
```

Argument widths töötab sama moodi.

```{r}
(p1 | p2 | p3) + plot_layout(widths = c(2, 2, 4))
```

Eelmine pilt jäi kole sest vastavate laiustega on graafikute andmeid näitavad paneelid. Kuna kahel graafikul on aga legend, siis nende laiust arvesse ei võeta. Küll aga on võimalik argumendiga guides kõikidelt piltidelt legendid kokku koguda.

```{r}
(p1 | p2 | p3) + plot_layout(widths = c(2, 2, 4), guides = "collect")
```

Paketis patchwork on veel palju võimalusi ja tasub uurida paketi kodulehte <https://github.com/thomasp85/patchwork> ja seal viidatud õpetusi.

#### Ülesanded

-   Proovige tekitada järgnev pilt

![](images/Screenshot%202021-02-28%20at%2016.18.22.png)

```{r}
(p1 / ( p2 | p3)) + plot_layout(widths = c(2, 2, 4), guides = "collect")
```

## Kodune ülesanne

-   Proovi joonistada võimalikult sarnane graafik järgnevaga. Siin on rakendatud terve hulk nippe, mida sai selles ja eelmises praksis õpitud. Punktid kujunevad selle põhjal kui palju neist nippidest on rakendatud. Kui õiget nippi on rakendatud, kuid tulemus pole täpselt identne, siis punkte maha ei võta. Näiteks kui värv pole täpselt õige aga õigel graafiku osal on seda siiski muudetud.

    ![](images/Screenshot%202022-09-20%20at%2022.39.17%201.png)

```{r}
linnad
```

```{r}
library(ggplot2)
library(dplyr)
library(patchwork)


fill_cols <- c(
  "Low"    = "#f4a142",
  "Medium" = "gray90",
  "High"   = "#7b67c8"
)

outline_cols <- c(
  "Low"    = "#e65000",
  "Medium" = "#e65000",
  "High"   = "#e65000"
)


data <- linnad %>% 
  mutate(
    income_class = fct_recode(income_class, "High" = "Very High", "Low" = "Very Low"),
    Poverty_factor = fct_relevel(Poverty_factor, "Low", "Medium", "High"),
    Birth_factor = fct_relevel(Birth_factor, "Low", "Medium", "High") 
  )

p1 <- ggplot(data, aes(x = Birth_factor, y = over65, fill = Birth_factor)) + 
    geom_boxplot(fill = NA, color="gray5") +
    geom_violin(
      aes(color = Birth_factor),
     alpha = 0.4, linewidth = 0,
      draw_quantiles = NULL
    ) +
    scale_fill_manual(values = fill_cols) +
    scale_color_manual(values = outline_cols) +
    geom_hline(yintercept = 12.5, linetype = "dotted") +
    facet_wrap(~ State, ncol = 3) + 
    theme_bw(base_size = 13) +
    theme(
      strip.background = element_rect(fill = "#f2b0c4", color = "black"),
      strip.text = element_text(face = "bold"),
      panel.grid.major.x = element_blank(),
      panel.grid.major.y = element_blank(),
      panel.grid.minor = element_blank(),
      panel.background = element_rect(fill = "white", color = NA),
      legend.position = c(1, -0.1), 
      legend.justification = c(1, 0),
      legend.key = element_rect( color="red"),
    ) 



p2 <- ggplot(linnad, aes(x = deaths, y = births)) +
  geom_point(color = "white", size = 2,) +
  geom_smooth(color = "red", linewidth = 1) +
  theme_void() +
  theme(
    panel.background = element_rect(fill = "black", color = "black"),
    panel.grid.major = element_line(color = "white", linetype = "dashed"),
    panel.grid.minor = element_line(color = "white", linetype = "dashed"),
    axis.text = element_text(color = "black"),
    axis.title = element_text(color = "black"),
    plot.background = element_rect(fill = "white", color = "white"),
    axis.title.y = element_text(angle = 90)
  ) +
    scale_x_continuous(name = "Higher education percentage", breaks = c(0, 0.5, 1, 1.5, 2))+
  labs(x = "deaths", y = "births")


p1 / p2 + plot_layout(heights = c(3, 1))
```

## ggplot2-ga graafikute joonistamise harjutamine

Selle ja eelmise praktikumi põhjal peaks olulisemad oskused ggplot2 kasutamiseks olemas olema. Nüüd proovime neid rakendada, kasutades ka teadmisi teisest loengust, kus sai tutvustatud graafikute valimise põhimõtteid täpsemalt.

Loeme sisse kõigepealt andmestiku, mis kirjeldab siis 2000 inimese kehamassi indekseid ja juhuslikul päeval tehtud sammude arvu. Iga inimese kohta on ka antud sugu, vanus ja vanusegrupp. Loeme andmestiku sisse.

```{r}
load("bmi.RData", verbose = T)

bmi
```

Iga ülesande puhul tasub proovida erinevaid variante ja mõelda milline töötab antud olukorras paremini ja miks. Meeldetuletuseks, siin on olulisemad käsud mida vaja võib minna

-   `geom_point`

-   `geom_histogram`

-   `geom_bar`

-   `geom_boxplot`

-   `geom_density`

-   `geom_violin`

-   `geom_smooth`

-   `facet_grid`

#### Ülesanded

-   1 Milline tehtud sammude jaotus? Millist geomeetrilist esitust võib selle uurimiseks kasutada?

-   2 Milline on tehtud sammude jaotus sugude kaupa? Vihjed:

    -   et joonistada histogrammid üksteise peale tasub panna `position = "identity"`

    -   argument `alpha` kontrollib värvide läbipaistvust

-   3 Kumma soo esindajad teevad mediaanis vähem sammusid?

-   4 Tee läbi see sama võrdlus vanusegruppide kaupa. Kas järeldus on sama?

-   5 Vaata vanusegruppide arvukust sugude kaupa. Kas jaotus on sarnane või erinev?

-   6 Kas vanuse ja tehtud sammude vahel on seos? Kas seos tundub lineaarne?

-   7 Milline on seos kehamassi indeksi ja sammude vahel? Kas seos on lineaarne ja või on tegu millegi keerukamaga?

```{r}

#1
ggplot(bmi, aes(x = Steps)) +
  geom_histogram()

ggplot(bmi, aes(x = Steps)) +
  geom_histogram(bins = 100)

ggplot(bmi, aes(x = Steps)) +
  geom_density()

ggplot(bmi, aes(x = Steps)) +
  geom_boxplot()
```

```{r}

#2
ggplot(bmi, aes(x = Steps, fill=Gender)) +
    geom_histogram(position = "identity", alpha=0.3)

ggplot(bmi, aes(x = Steps, fill=Gender, color=Gender)) +
    geom_histogram(position = "identity", alpha=0.3)


ggplot(bmi, aes(x = Steps, fill=Gender, color=Gender)) +
  geom_density(position = "identity", alpha=0.3)

```

```{r}

#3

ggplot(bmi, aes(x = Steps, y=Gender)) +
  geom_boxplot()

```

```{r}

#4
ggplot(bmi, aes(x = Steps, y=AgeGroup, fill=Gender)) +
  geom_boxplot()
```

```{r}

#5
ggplot(bmi, aes(x = Gender, fill=AgeGroup)) +
  geom_bar()

ggplot(bmi, aes(x = Gender, fill=AgeGroup)) +
  geom_bar(position="dodge")

ggplot(bmi, aes(x = Gender, fill=AgeGroup)) +
  geom_bar(position="fill")
```

```{r}

#6
ggplot(bmi, aes(x = Age, y=Steps)) +
  geom_point() +
  geom_smooth()

ggplot(bmi, aes(x = Age, y=Steps)) +
  geom_point() +
  geom_smooth(method = "lm")
```

```{r}

#7 
ggplot(bmi, aes(x = BMI, y=Steps)) +
  geom_point() +
  geom_smooth()

ggplot(bmi, aes(y = BMI, x=Steps)) +
  geom_point() +
  geom_smooth(method = "lm")
```

## Kodune ülesanne

Failis `ylevaatused.RData` on andmestik kõigi Eestis toime pandud sõidukite tehniliste ülevaatuste kohta. Tunnuste kohta lisainfot palju pole, kuid nimed peaks suht selged olema. Andmestik pärineb eesti avaandmete portaalist: <https://avaandmed.eesti.ee/datasets/maismaasoidukite-tehnoulevaatused-eestis>

Ülesandeks on selle andmestiku põhjal joonistada välja graafik mis toob välja mingi huvitava seose. Andmestik on suur ja graafik ei pea kajastama tervet andmestikku, vaid võib keskenduda mingile andmete alamhulgale.

Sellel graafikul võib olla mitu paneeli, kuid peab olema siiski **üks** fail, mis välja trükkides mahuks ühele lehele ja oleks loetav. Kuna andmed on keerukad võib pildi salvestada suuremana, kui Rstudio graafiku aknasse mahub (kasutades käsku `ggsave` ja argumente `height` ja `width`), et kõigel vajalikul piisavalt ruumi oleks.

Esitada tuleb graafikut genereeriv **kood**, põhjendus miks just antud tüüpi graafik(ud) on nende andmete näitamiseks hea ja ka mõne lauseline **järeldus**, mille te pildilt olete välja lugenud.

Graafik peab vastama järgnevatele tingimustele.

-   Kasutatud on vähemalt 5 erinevat tunnust

-   Kasutatud on vähemalt 2 erinevat geom\_\* funktsiooni

-   On modifitseeritud graafiku elementide väljanägemist ning need muudatused on asjakohased

-   On valitud andmetele sobiv visualiseerimise meetod

-   Graafik ei vaja lisaselgitusi ning on kergesti loetav (kõik tekstid suurte algustähtedega, grammatiliselt korrektsed, piisavalt kirjeldavad).

-   Tekstilised järeldused ja graafik lähevad kokku.

```{r}

load("ylevaatused.RData", verbose = T)

ylevaatused
```

```{r}
names(ylevaatused) # colnames(ylevaatused)


unique(ylevaatused$YLEVAATUSOTSUS)


str(ylevaatused)
```

```{r}
library(tidyverse)
library(patchwork)
```

```{r}
ylev <- ylevaatused %>%
  mutate(
    RIKKED = ifelse(is.na(RIKKED), "", RIKKED),
    VIGADE_ARV = ifelse(RIKKED == "", 0, str_count(RIKKED, ";") + 1),
  ) %>%
  filter(str_starts(KATEGOORIA, "M") & !is.na(KATEGOORIA)) %>%
 mutate(KERETYYP_GRUPP = case_when(
    KERETYYP %in% c("MAHTUNIVERSAAL", "UNIVERSAAL", "LUUKPÄRA", "SEDAAN",
                    "KUPEE", "LIMUSIIN", "KOMBI") ~ "Sõiduauto",

    KERETYYP %in% c("LAHTINE", "PIKAP", 
                    "SIHTOTSTARBELINE", "ERIOTSTARBELINE SÕIDUK") ~ "Kaubik / tööauto",

    KERETYYP %in% c("MITMEOTSTARBELINE SÕIDUK") ~ "Mitmeotstarbeline",

    KERETYYP %in% c("BUSS", "LIIGENDBUSS", "KORRUSBUSS", "TROLL") ~ "Buss",

    KERETYYP %in% c("KIIRABI", "MATUSEAUTO", "ELAMU") ~ "Erisõiduk",

    TRUE ~ NA
  ))
  #sample_n(20000)

ylev
```

```{r}
#unique(ylev$YLEVAATUSOTSUS)

unique(ylev$KERETYYP)
```

```{r}
# Vanus vs mitte_positiivne ülevaatusotsus (M1 ja m1g kategooria (sõiduuatod ja bussid))

library(scales)
palett = hue_pal()(8)

kategooria_värvid = c(
  "M1"     = palett[2],
  "M1G"    = palett[4],
  "M2"     = palett[6],
  "M3"     = palett[8]
)


m1_m1g <- ylev %>%
  filter(!is.na(ESMANE_REG_AASTA), !is.na(YLEVAATUSOTSUS)) %>%
  filter(YLEVAATUSOTSUS %in% c("EI_VASTA_NOUETELE", "SOITMISEKS_KOLBMATU")) %>%
  filter(KATEGOORIA %in% c("M1", "M1G")) %>%
  ggplot(aes(x = ESMANE_REG_AASTA, color = KATEGOORIA, fill = KATEGOORIA)) +
  geom_density(alpha = 0.2) +
  labs(
    title = "Sõiduautod",
    x = "Esmane registreerimse aasta",
    y = "Tihedus",
    fill = "Kategooria",
    color = "Kategooria"
  ) +
  theme_minimal(base_size = 12) +
  theme(plot.title = element_text(face = "plain", size = 12)) +
  scale_color_manual(values = kategooria_värvid) +
  scale_fill_manual(values = kategooria_värvid) 

m2_m3 <- ylev %>%
  filter(!is.na(ESMANE_REG_AASTA), !is.na(YLEVAATUSOTSUS)) %>%
  filter(YLEVAATUSOTSUS %in% c("EI_VASTA_NOUETELE", "SOITMISEKS_KOLBMATU")) %>%
  filter(KATEGOORIA %in% c("M2", "M3")) %>%
  ggplot(aes(x = ESMANE_REG_AASTA, color = KATEGOORIA, fill = KATEGOORIA)) +
  geom_density(alpha = 0.2) +
  labs(
    title = "Bussid",
    x = "Esmane registreerimse aasta",
    y = "Tihedus",
    fill = "Kategooria",
    color = "Kategooria"
  ) +
  theme_minimal(base_size = 12) +
  theme(plot.title = element_text(face = "plain", size = 12)) +
  scale_color_manual(values = kategooria_värvid) +
  scale_fill_manual(values = kategooria_värvid) 


graafik1 <- m1_m1g / m2_m3 +
   plot_layout(guides = "collect") +
   plot_annotation(
    title = "Negatiivne ülevaatusotsus",
    subtitle = "M-kategooria sõidukid",
    #caption = "Allikas: ?? trust me bro",
    theme = theme(
      plot.title = element_text(face = "bold", size = 16),
      plot.subtitle = element_text(size = 12)
    )
  ) 

#graafik1
```

```{r}


# Auto kategooria ja vigade arv
graafik2 <- ylev %>%
  filter(!is.na(KATEGOORIA), !is.na(KERETYYP_GRUPP)) %>%
  group_by(KATEGOORIA) %>%
  ggplot(aes(y = KATEGOORIA, x = VIGADE_ARV, color=KERETYYP_GRUPP)) +
  geom_point(position = "jitter") +
  labs(
    title = "Vigade arv keretüübi kohta",
    subtitle = "M-kategooria sõidukid",
    y = "Keretüüp",
    x = "Vigade Arv",
    color = "Keretüüp"
  ) +
  theme_minimal(base_size = 12) + 
   theme(
      plot.title = element_text(face = "bold", size = 16),
      plot.subtitle = element_text(size = 12)
    )

#graafik2
```

```{r, fig.width=12, fig.height=16}

graafik1 / graafik2 +
   plot_layout(guides = "keep")
```

**Ma tahtsin uurida järgnevat:**

1) Mida vanem auto seda suurema tõenäosusega kukub ülevaatusel auto läbi.

2) Sõiduautodel on tavaliselt rohkem vigu kui bussidel, kuna autosid on rohkem teedel kui busse.

**Järeldused:**

1) sõiduautod: Mida vanem auto, seda suurem on tõenäosus ülevaatusel läbi kukkuda. \
Bussid: Vanus ei selgita otseslet läbikukkumist. Busside puhul mõjutab tulemust pigem asutusintensiivsus (suurem aastane läbisõit), mistõttu võivad ka uuemad bussid sagedamini läbi kukkuda.

2) Sõiduautodel on rohkem äärmuslikke vigade väärtusi, kuna sõiduautosid on valimis tunduvalt rohkem kui busse. Valimi suurus tekitab loomulikult suurema hajuvuse.
